#distribuciones puntiagudas

Escalado temporal universal de 1/3 en distribuciones puntiagudas

El entrenamiento de LLMs converge lentamente por una razón fundamental: softmax y entropía cruzada generan un escalado de pérdida universal 1/3. Descubre las implicaciones.

2026-06-02 · 2 min